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摘要 : [ 目的 /意义 ] 梳理 单 篇 论文 被 引 频次 的 相关 影响 因素 以 及 被 引 频 次 预测 研究 现状 ， 为 
科研 人 员 和 科研 机 构 研 究 单 篇 论文 被 引 频次 影响 因素 及 预测 提供 一 个 全 面 系统 的 认 知 框架 。[ 过 
程 /方法 ] 采用 文献 调研 法 ， 通 过 对 现 有 文献 进行 系统 的 杭 理 ， 总 结 被 引 频次 预测 的 影响 因素 、 
研究 对 象 和 研究 方法 的 相关 内 容 和 特点 ， 并 通过 列表 的 方式 对 比分 析 不 同 的 方法 ， 总 结 现 有 研 
究 普遍 存在 的 问题 和 一 些 创新 的 解决 方案 。[ 结果 / 结论 ] 在 系统 梳理 和 总 结 的 过 程 中 发 现 ， 影 
响 因 素 与 预测 结果 之 间 因果 关系 不 明确 ， 研 究 样本 数据 缺乏 多 样 性 ， 未 明确 研究 结果 的 适用 性 
与 预测 周期 的 关系 ， 模 型 评估 可 解释 性 较 弱 。 因 此 ， 应 从 解决 问题 的 前 提 条 件 、 选 择 有 针对 性 
的 样本 、 改 进 影响 因素 提取 方法 、 运 用 数学 思维 方式 进行 建 模 等 方面 提高 后 续 研究 的 质量 。 
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科学 系统 包含 了 大 量 元 素 和 链接 ， 研 究 者 
对 学 术 论 文 的 引文 动态 和 科学 演变 越 来 越 感 兴 
趣 。 被 引 频 次 在 一 定 程度 上 反映 了 论文 受到 的 
关注 程度 ， 然 而 通常 只 有 少数 的 研究 论文 积累 
了 绝 大 多 数 的 被 引 频 次 ， 而 其 他 大 多 数论 文 只 
吸引 了 少数 的 其 它 论 文 的 引用 中 。 也 就 是 说 ， 
一 些 研究 论文 比 其 他 研究 论文 更 有 可 能 吸引 研 
究 者 的 注意 。 对 于 不 断 增长 的 文献 数量 ,预测 
哪 篇 论文 更 有 可 能 引起 学 术 界 的 关注 是 很 重要 


的 。 因 此 ， 被 引 频 次 预测 成 为 目前 文献 计量 领 
域 的 一 个 新 的 研究 方向 。 该 研究 主题 已 经 涌现 
了 不 少 的 论文 ， 在 研究 建 模 过 程 中 ， 一些 研 究 
人 员 被 大 量 的 低 被 引 频 次 的 论文 所 困扰 ， 方 法 
影响 因素 特征 的 选择 多 样 化 ， 导 致 研究 的 重 
复 累 更， 尽管 已 经 有 学 者 对 该 主题 进行 系统 性 
的 综述 ,但 是 主要 集中 在 影响 因素 和 研究 方法 
上 ， 还 未 有 学 者 从 研究 人 员 如 何 介入 该 领域 研 
究 提出 有 效 的 解决 方案 。 基 于 此 ， 本 文 梳理 了 
论文 被 引 频 次 的 影响 因素 ， 面 向 预测 任务 ， 将 
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这 两 个 方面 单 篇 论文 被 引 频 次 的 研究 方法 、 论 
文 的 研究 对 象形 式 和 预测 周期 等 ， 最 后 根据 现 
有 研究 中 的 普遍 问题 提出 一 些 方案 ， 以 期 为 后 
续 人 研究 者 提供 借鉴 和 参考 。 本 文 主要 的 梳理 框 
架 如 图 1 所 示 : 
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度 进行 评价 一 一 论文 所 研究 的 主题 的 关注 度 、 
主题 新 疾 性 、 主 题 的 多 样 性 。 热 门 的 主题 通常 
也 会 吸引 更 多 的 关注 和 更 多 其 它 论文 的 引用 六 
论文 主题 新 颖 也 会 增强 其 影响 力 和 被 引 率 中， 
论文 主题 越 有 吸引 力 和 新 颖 性 越 高 ， 它 被 引 频 
次 可 能 就 会 越 多 。 此 外 ， 所 研究 的 主题 范围 和 
主题 领域 将 影响 被 引 频次 ， 论 文 研究 主题 的 多 
样 性 会 给 论文 的 被 引 频次 带 来 影响 1. 

在 主题 的 识别 研究 中 ， 大 多 数 人 研究 者 都 
是 使 用 隐 含 狄 利 克 雷 分 布 (Latent Dirichlet 


论文 /内 容 相关 
作者 相关 
影响 因素 期 刊 相关 
其 七 
协 变量 —— 
i 传统 回归 - 
预测 机 器 学 习 REM 
深度 学 习 分 类 问题 
被 引 频 次 Re J 
果 关系 不 明 } 一 人。 改进 方法 
pm 样本 领域 单一 j ”扩大 样本 
适用 性 未 知 F 明确 前 提 
解释 性 弱 J 数学 思维 建 模 
[| 建议 


1 综述 框架 


@ 单 篇 论文 被 引 频次 影响 因素 

学 术 论 文 的 被 引 频 次 预测 已 经 被 广泛 地 研 
究 ， 在 这 些 被 引 频 次 预测 的 研究 中 ， 人 研究 人 员 
往往 关注 什么 因素 会 影响 论文 的 被 引 量 ， 从 而 
筛选 重要 的 影响 因素 来 对 引文 的 被 引 量 进 行 预 
ill). F. Didegah 和 M. Thelwall” 认为 ， 论 文 引用 
动机 复杂 ， 引 用 者 对 论文 的 智力 认 知 是 论文 被 
引 量 的 内 在 因素 ， 其 可 以 通过 访谈 和 问卷 进行 
调查 ， 但 是 其 具有 耗 时 的 缺点 ， 并 且 由 于 引用 
动机 的 复杂 性 和 学 科 依 赖 性 ， 这 种 定性 研究 通 
常 只 涉及 一 小 部 分 学 者 样本 ， 而 外 部 因素 可 以 
大 规模 地 量化 和 计算 ， 因 此 可 以 用 来 预测 未 来 
的 引文 影响 。 影 响 被 引 率 的 外 在 因素 包括 被 引 
用 论文 的 作者 、 摘 要 、 期 刊 、 领 域 和 参考 文献 
以 及 论文 本 身 等 属性 特征 。 本 文 研究 仅 局 限于 
外 部 动机 ,将 这 些 因 素 归 纳 为 论文 本 身 、 作 者 、 
期 刊 、 其 他 四 大 类 。 
2.1 与 论文 本 身 相关 的 影响 因素 

在 与 论文 相关 的 影响 因素 中 ， 与 被 引 频 次 
相关 的 主要 因素 之 一 是 论文 的 主题 ， 论 文 的 主 
题 是 论文 研究 内 容 的 核心 ， 它 可 以 用 来 预测 论 
文 未 来 被 引 频次 中。 论文 的 内 容 可 以 从 三 个 维 
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Allocation，LDA ) 模型 或 其 衍生 模型 进行 主题 
识别 , 进而 计算 其 主题 的 关注 度 / 热度、 新 新 性、 
多 样 性 等 指标 。 主 题 关 注 度 的 测度 主要 从 累计 
被 引 的 角度 进行 计算 ,多样 性 的 测度 主要 从 信 
息 炉 的 角度 进行 计算 ， 新 颖 性 的 测度 主要 从 同 
行 评 议 、 引 用 、 内 容 三 个 角度 进行 计算 中 ， 除 
去 同行 评议 ， 另 外 两 种 方法 (引用 对 的 共 现 频 
率 和 主题 内 容 的 共 现 频率 ) 都 是 基于 一 种 共 现 
思想 进行 考虑 的 。 关 于 内 容 新 颖 程度 的 研究 有 
许多 ， 但 其 研究 的 角度 大 致 相同 。 

参考 文献 的 数量 、 权 威 度 以 及 论文 中 参考 
文献 的 多 样 性 也 会 增加 论文 的 被 引 频 次 外。 参 
考 文献 数量 多 的 研究 与 较 高 的 被 引 率 相关 。 
平均 参考 文献 年 份 越 年 轻 的 论文 ， 可 能 获得 更 
多 的 被 引 量 ， 引 用 “ 旧 出 版 物 ” 的 论文 被 引 量 
明显 减少 中 ， 因 为 论文 信息 随 着 时 间 的 流逝 会 
过 时 "。 一 般 来 说 ， 在 发 表 后 的 前 几 年 ， 被 引 
频次 达到 峰值 ， 随 着 时 间 的 推移 ， 被 引 频 次 逐 
渐 减 少 。 此 外 ， 参 考 文 献 的 权威 度 ( 累计 被 引 
频次 5 ) 和 多 样 性 ( 施 引 文献 所 属 研 究 领 域外 
和 跨国 籍 站) 也 会 对 论文 引文 率 产 生 影 响 。 

还 有 研究 发 现 ， 某 些 类 型 的 文档 比 其 他 类 
型 的 文档 获得 更 多 的 被 引 ， 如 综述 论文 比 研 究 
论文 的 被 引用 更 多 I。 基金 资助 是 科学 研究 的 
重要 经 济 来 源 ， 充 足 的 经 费 可 以 使 研究 得 到 较 
好 的 物质 保障 ， 一 般 来 说 ， 获 得 更 高 水 平 资助 
的 研究 项 目的 论文 能 比 未 受 资助 的 论文 获得 更 
多 的 被 引 钻 。 在 一 些 研 究 中 ,论文 早 期 被 引 率 
及 其 速度 也 被 认为 是 其 未 来 被 引 的 预测 因素 。 
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论文 早期 被 引 是 科学 界 对 这 篇 论文 的 早期 反馈 ， 
其 被 引 速 率 在 一 定 程 度 上 反映 了 论文 在 科学 界 
的 传播 速度 。 论 文 的 长 度 (其 页 数 ) 也 是 增加 
被 引 频 次 的 因素 之 一 外 ,因为 较 长 的 论文 包含 
了 更 多 的 信息 中。 论文 的 标题 是 整 篇 论文 内 容 
最 浓缩 的 概括 ， 也 是 研究 学 者 搜索 论文 最 先 看 
到 的 内 容 ， 因 此 也 有 研究 学 者 对 这 方面 的 内 容 
进行 了 研究 ，H. R. Jamali 和 M. Nikzad03 认为 ， 
一 个 信息 丰富 的 标题 可 以 增加 论文 的 被 引 次 数 ， 
但 标题 长 度 和 被 引 之 间 没 有 显著 的 相关 性 ， 相 
对 于 被 引 频次 ， 标 题 特征 对 下 载 次 数 的 影响 更 
XU, 开放 获 取 是 指 论文 的 可 访问 性 和 可 见 性 ， 
能 够 阅读 全 文 作者 才能 从 该 篇 论文 中 获取 自己 
需要 引用 的 内 容 ， 因 此 发 表 在 开放 获取 期 刊 上 
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的 论文 ,往往 比 发 表 在 非 开 放 获取 期 刊 上 的 论 
文 被 引 量 更 多 ”"。 

与 论文 相关 的 影响 因素 研究 范围 非常 广泛 ， 
除了 以 上 研究 得 比较 多 的 影响 因素 ， 国 外 学 者 
还 对 论文 的 方法 论 / 研究 设计 、 章 节 特 征 、 是 否 
使 用 数据 /附录 等 方面 进行 了 详细 的 研究 ”…。 
尽管 有 论文 研究 这 些 因 素 在 某 些 领域 上 与 被 引 
率 是 有 相关 性 的 ， 但 在 不 同 领域 的 研究 中 ， 这 
些 因 素 与 被 引 率 不 一 定 产 生 关 系 ， 或 者 只 有 微弱 
的 关系 。 这 些 研 究 经 常 忽略 不 同学 科 的 差异 "， 
其 实 一 些 影 响 因 素 都 是 具有 明显 的 学 科 领 域 特 
征 的 ， 因此， 构建 普 适 性 的 综合 指标 并 不 是 很 
好 的 选择 。 笔 者 对 以 上 综述 的 影响 因素 进行 了 
整体 归纳 ， 如 表 1 ras: 


表 1 论文 相关 影响 因素 及 描述 
影响 因素 描述 
研究 主题 主题 新 颖 性 某 主题 在 论文 集合 中 的 新 颖 程度 
主题 关注 度 其 他 科研 工作 者 对 论文 主题 的 关注 程度 
主题 多 样 性 论文 研究 主题 个 数 
参考 文献 数量 参考 文献 的 篇 数 
累计 被 引 截止 计算 日 期 参考 文献 的 累计 被 引 
多 样 性 施 引 文献 所 属 研究 领域 ， 跨 国籍 
平均 参考 年 份 所 有 参考 文献 出 版 年 份 的 平均 值 
论文 类 型 综述 型 论文 、 人 研究 型 论文 
基金 资助 是 否 有 基金 资助 ， 基 金 资 助 类 型 
早期 被 引 和 被 引 速 率 论文 早期 收 到 的 被 引 频次 ; 以 及 早期 论文 被 引 的 速度 
开放 获取 论文 的 可 访问 性 和 可 见 性 
标题 特征 标题 长 度 、 有 无 标点 符号 、 标 题 类 型 ( 复合 标题 、 问 题 标 题 、 描 述 性 标题 ) 
论文 长 度 /篇 幅 以 页 数 表示 长 度 
方法 论 / 研 究 设计 方法 学 的 质量 ; 方法 类 型 ; 方法 描述 
章节 特征 音节 内 容 
数据 /附录 用 数据 呈现 结果 ， 论 文 带 有 附录 


2.2 作者 相关 影响 因素 

与 作者 相关 的 因素 也 会 对 论文 的 被 引 频次 
产生 影响 。 作 者 的 数量 是 一 种 表明 研究 合作 程 
度 的 衡量 标准 。 高 质量 的 论文 往往 涉及 多 个 科 


研 人 员 的 合作 ， 作 者 合 车 ( 特别 是 国际 上 的 合 
fe P) 能 增加 论文 的 被 引 率 ""。 然 而 ， 有 一 些 
研究 却 发 现 了 相反 的 结果 ,证 明 国际 合作 与 论 
文 被 引 频次 之 间 并 无 特别 的 联系 记 。 随 着 引文 
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时 间 窗 口 变 长 ， 作 者 数量 与 引文 之 间 的 相关 性 
也 会 减弱 与。 但 也 有 研究 报告 指出 ， 不 同 领域 
的 作者 合作 能 增加 论文 的 被 引 率 7, pae, dE 
者 之 间 的 合作 是 否 影响 论文 的 被 引 频 次 存在 着 
较 大 的 分 牙 。 

此 外 ， 论 文 作 者 数量 和 自 引 数 呈正 比 的 关 
系 中 ,但 是 ， 有 研究 发 现 ， 自 引 率 与 非 自 引 率 
的 比例 随 着 论文 积累 的 总 被 引 频 次 的 增加 而 降 
低 ， 自 引 往往 集中 出 现在 论文 出 版 后 的 很 短 的 
时 间 内 外。 因此 从 宏观 角度 看 ， 在 分 析 论 文 被 
引 时 不 需要 在 分 析 中 排除 自 引 "1。 

著名 作者 在 其 研究 领域 有 着 较 高 的 声 
望 ， 其 论文 往往 会 有 较 高 的 被 引 量 上 “7 BK 
效应 使 具有 高 被 引 特 征 的 作者 发 表 的 论文 比 
具有 低 被 引 特 征 的 作者 发 表 的 论文 更 能 获得 
其 它 论文 的 引用 5。 因此 ， 作 者 之 前 的 论文 
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的 被 引 频 次 可 以 被 认为 是 对 未 来 论文 被 引 的 
一 个 很 好 的 预测 因素 O H 指数 是 用 来 衡量 
科学 界 研究 者 能 力 的 最 常用 的 标准 ""， 声 
望 高 的 作者 H 指数 往往 很 高 ， 因 此 ， 在 研究 
作者 某 一 个 领域 的 声望 对 论文 被 引 量 的 影响 
时 ， 和 常用 互 指数 作为 一 个 计量 的 指标 。 作 者 
所 属 机 构 的 声望 很 大 部 分 依赖 于 作者 。 一 般 
来 说 ， 排 名 高 的 学 校 的 论文 会 有 更 多 的 被 引 
mg. 

除 此 之 外 ， 关 于 作者 的 人 口 统计 学 特征 也 
被 纳入 到 测量 指标 之 中 。 有 研究 发 现 ， HAM 
男性 比 非 白 人 和 女性 有 更 高 的 影响 力 。 但 也 
有 研究 表明 人 口 统计 学 特征 对 于 论文 是 否 被 引 
并 无 显著 性 的 影响 ”。 

笔者 对 作者 相关 的 影响 因素 做 了 以 下 的 归 
纳 ， 如 表 2 所 示 : 


表 2 作者 相关 影响 因素 及 描述 


影响 因素 描述 

数量 参与 论文 撰写 的 人 数 

合作 方式 国际 合作 、 国 内 合作 、 组 织 内 合作 、 组 织 外 合作 

H 指 数 作者 发 表 的 N 篇 论文 中 有 bh 篇 每 篇 至 少 被 引 h 次 
累计 被 引 量 截至 计算 日 期 ， 作 者 获得 的 累计 被 引 量 

自 引 率 论文 作者 对 论文 的 被 引 量 占 比 
作者 所 属 机 构 作者 撰写 论文 时 所 属 单位 

人 口 统计 学 性 别 、 年 龄 、 种 族 、 国 家 


2.3 期 刊 相关 影响 因素 

除了 与 论文 与 作者 相关 方面 的 影响 外 ， 有 
研究 发 现 论文 的 被 引 频 次 的 主要 决定 因素 是 期 
刊 层 面 的 因素 5。 论文 在 出 版 期 刊 上 获得 的 
平均 被 引 量 可 以 预测 论文 未 来 的 被 引 量 ""。 研 
究 者 在 发 表 论 文 时 往往 会 更 倾向 于 发 表 在 具有 
高 影响 力 的 刊物 上 ,以 提高 他 们 论文 的 可 见 性 ， 
从 而 获得 更 高 的 被 引 量 。 研 究 证 明 ， 在 具有 高 
影响 力 的 期 刊 上 发 表 论 文 能 比 在 低 影响 力 的 期 
刊 上 发 表 的 论文 更 容易 获得 高 被 引 ""。 尽 管 
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大 量 人 研究 都 证 明了 期 刊 的 影响 力 与 论文 的 被 引 
量 存 在 正 相关 关系 ,但 是 也 有 一 些 研究 发 现 ， 
期 刊 影响 因子 不 一 定 是 被 引 频 次 预测 的 影响 指 
标 ""。 也 有 研究 者 使 用 出 版 物 的 总 被 引 量 、 
生产 力 ( 刊载 论文 数 ) 作为 研究 的 影响 因素 之 
一 2。 除 此 之 外 ， 部 分 研究 认为 期 刊 的 语种 
对 于 论文 被 引 率 来 说 也 是 有 一 定 的 影响 的 
寺 别 是 英语 期 刊 "”， 会 积累 更 多 的 被 引 量 。 
以 下 是 本 文 对 期 刊 相 关 影 响 因 素 的 归纳 ， 如 表 
3 Bran : 
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表 3 期 刊 相 关 影 响 因素 及 描述 


影响 因素 描述 
影响 因子 某 时 间 段 积累 的 平均 被 引 量 
期 ] AE EF Fy RAS Wr mm My 
总 被 引 量 PTERA oe 
生产 力 /发 文 量 刊载 的 论文 数 
语言 期 刊 的 语言 类 型 


2.4 其 他 影响 因素 

随 着 研究 的 不 断 深 入 ， 出 现 了 社交 网 络 、 
时 间 等 因素 等 新 的 研究 视角 。 研 究 者 开始 分 析 
社会 网 络 活动 和 文献 计量 学 之 间 的 潜在 联系 中 1。 
孔 玲 等 中 在 归纳 相关 影响 因素 时 ， 增 加 了 替代 
计量 角度 的 因素 ,但 蔡 代 计量 因素 针对 的 是 开 
放学 术 网 络 平台 及 社交 网 站 进行 人 研究， 与 传统 
的 学 术 论文 网 站 存在 一 定 的 区 别 。 除 了 社交 网 
络 外 ， 学 术 引 文 网 络 也 是 一 个 很 重要 的 因素 。 
为 了 衡量 作者 的 社交 性 ，R. Yan 等 建立 了 一 个 
作者 协作 网 络 ， 并 用 PageRank 递归 地 计算 了 社 
ZEHE D, 由 于 学 术 论 文 的 引用 具有 半衰期 属性 ， 
所 以 时 间 因 素 对 于 论文 的 被 引 频 次 预测 来 说 也 
是 一 个 非常 具有 研究 价值 的 因素 。E. Butun 和 M. 
Kaya 将 作者 的 引文 网 络 和 时 间 因 素 相 结合 ， 引 
人 一 个 时 间 链 路 指标 ， 考 虑 作者 引文 网 络 的 演 
化 趋势 ， 利 用 复杂 网 络 中 的 局 部 和 全 局 拓扑 结 
构 , 根据 引文 网 络 中 的 链 路 来 预测 链接 的 权重 ， 
这 是 第 一 个 使 用 定向 、 加 权 和 时 间 引 文 网 络 来 
进行 被 引 频 次 预测 的 研究 所。 

笔者 对 其 他 类 因素 进行 了 归纳 ,如 表 4 所 示 


表 4 其 他 影响 因素 及 描述 


影响 因素 描述 
opa ”社交 媒体 的 转载 、 评 论 、 收 藏 、 下 载 
替代 计量 的 行为 
学 术 网 络 ”论文 之 间 、 作 者 之 间 构 成 的 引文 网 络 
时 间 赋予 时 间 权重 


O 单 篇 论文 被 引 频 次 预测 方法 
随 着 科学 计量 的 发 展 ， 众 多 的 研究 方法 被 
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引进 到 被 引 频次 预测 研究 中 。 从 任务 导向 出 发 ， 
可 以 将 预测 问题 定义 为 回归 问题 ， 也 可 以 将 预 
测 问题 定义 为 分 类 问题 。 回 归 问 题 中 ， 主 要 的 
研究 方法 分 为 以 下 三 类 : 传统 的 回归 分 析 方法 、 
机 器 学 习 方法 、 深 度 学 习 方法 。 而 分 类 问题 ， 
则 主要 是 使 用 机 器 学 习 的 方法 进行 研究 。 在 引 
入 的 多 种 方法 中 ， 每 种 研究 方法 都 有 其 特性 和 
适用 性 。 
3.2 定义 为 回归 问题 的 预测 方法 

将 被 引 频 次 预测 定义 为 回归 问题 ， 是 指 利 
用 一 篇 论文 的 相关 特征 ， 预 测 这 篇 论文 在 某 个 
时 间 节 点 的 被 引 频 次 中 。 回 归 是 目前 最 常用 的 
一 种 预测 方法 所 。 本 文 将 从 传统 的 回归 方法 、 
机 器 学 习 方 法 和 深度 学 习 方 法 三 个 方面 梳理 论 
文 的 被 引 频 次 预测 研究 现状 。 
3.1.1 传统 回归 预测 

在 预测 回归 问题 上 ， 早 期 研究 人 员 更 多 
地 使 用 传统 的 线性 回归 方法 进行 拟 合 研究 ，C. 
Lokker 等 9! 人 使 用 了 17 个 参考 文献 相关 特征 
和 3 个 期 刊 相关 特征 来 预测 临床 论文 两 年 被 引 
频次 ， 其 多 元 回归 预测 结果 训练 集 的 决定 系数 
r 为 0.60， 测 试 集 的 决定 系数 为 0.56， 在 进 
行 被 引 频 次 预测 敏感 度 分 析 时 ， 被 引 频 次 排名 
前 半 部 分 和 前 三 分 之 一 的 论文 特异 性 为 72% 和 
82%， 回 归 预 测 对 于 高 被 引 论文 的 预测 效果 更 
好 ， 该 结论 并 不 仅仅 在 这 篇 文章 中 得 到 体现 ， 
G. Abramo 等 外 的 研究 中 也 有 提 及 ， 其 反映 
的 事实 是 绝 大 多 数论 文 是 低 被 引 的 ， 只 有 少 部 
分 论文 是 高 被 引 的 中 。T. Yu 等 外 采用 多 元 逐 
步 回归 的 方法 ， 从 论文 的 外 部 特征 、 作 者 的 特 
征 、 发 表 期 刊 的 特征 和 被 引 论文 的 特征 中 选择 
好 的 特征 变量 ， 建 立 一 个 描述 特征 与 引文 影响 
之 间 关 系 的 模型 ， 用 于 预测 论文 发 表 5 年 后 的 
被 引 频 次 。L. Bornmann 等 中 使 用 了 Wos 数据 
EP 1980 年 发 表 的 所 有 论文 ， 涵 盖 各 个 学 科 ， 
总 计 约 50 万 篇 学 科 文 献 ， 以 发 表 后 的 第 31 年 
被 引 频次 作为 因 变 量 ， 进 行 论文 的 长 期 影响 预 
测 ， 研 究 发 现 ， 只 有 论文 发 表 后 前 几 年 的 被 引 
频次 能 显著 提高 论文 的 长 期 影响 预测 ， 同 样 的 
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<= 
人 研究 结果 也 被 G. Abramo 等 发 现 。G. Abramo 等 
的 使 用 了 两 种 线性 回归 模型 ， 预 测 的 平均 准确 
性 对 于 两 年 以 上 的 引文 时 间 窗 口 是 良 好 的 ， 三 
年 的 引文 时 间 窗 口 足够 预测 科学 文献 的 长 期 影 
响 ， 该 模型 对 于 低 被 引 的 科学 文献 预测 准确 率 
较 低 ， 并 且 不 同学 科 的 准确 率 也 不 同 。 程 子 轩 
等 MS) 使 用 逐步 回归 的 方法 ， 对 图 书 情报 期 刊 论 
文 发 表 后 的 第 七 年 被 引 频 次 进行 预测 ， 实 验 发 
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现 了 10 个 与 学 术 论 文 被 引 频次 呈 显 著 相 关 的 
影响 因素 。 

传统 的 回归 分 析 方 法 是 基于 统计 学 进行 的 ， 
这 类 模型 对 于 小 数据 量 、 简 单 的 关系 很 有 效 ， 
并 且 有 直观 的 理解 和 解释 ， 但 是 对 于 数据 分 布 
的 要 求 十 分 高 ， 对 于 结构 复杂 的 数据 其 处 理 精 
准 度 并 不 是 很 高 。 传 统 回 归 方法 预测 论文 被 引 
频次 的 部 分 论文 如 表 5 所 示 : 


表 5 传统 回归 方法 预测 论文 被 引 频 次 的 部 分 论文 (回归 间 题 ) 


序号 MINA 影响 因素 WADE 是 否 包括 冷 启动 预测 
/ es E > = EE > > 

1 文章 特征 、 期 刊 特征 。 多 元 回归 mot ER a [43] 
Thomson ISI 信 论文 的 外 部 特征 、 作 者 T (前 2 年 的 被 

2 。 息 科学 与 图 书 “特征 、 引 用 特征 、 期 刊 ”多 元 回归 OR 于。 发 表 5 年 后 的 被 引 频次 [28 
馆 科学 期 乔 特征 ^ 

, ”WoS1980 征 发 表 PERMIE BI MSR (1-30 年 的 被 BRANKE ys 
的 所 有 论文 量 和 页 数 等 HH 引 频 次 百 分 位 ) ” 频次 百 分 位 数 

, Wos 有 关 意大利 “早期 引文 、 正 (期刊 影 ”线性 回归 A (0-8 年 的 早期 发表 文章 9 年 后 的 被 。 | 
的 出 版 语料库 响 因子 ) 模型 被 引 ) 引 频 次 

5 OEIL 作者 特征 、 期 刊 特征 EE 是 M FE 


3.1.2 机 器 学 习 预 测 

随 着 科学 技术 的 发 展 ， 机 器 学 习 开 始 出 现 
在 被 引 频 次 预测 研究 中 ，R. Yan 等 外 利用 高 被 
引 论文 的 基本 特征 ， 使 用 了 多 种 机 器 学 习 方法 进 
行 比较 ， 预 测 每 种 文献 的 被 引 频 次 ， 其 最 佳 预 测 
模型 CART 分 类 回归 树 在 预测 10 年 内 的 被 引 频 
次 其 决定 系数 工 平 均 预 测 性 能 为 0.786， 其 研究 
发 现 ， 作 者 的 专业 知识 和 期 刊 的 影响 力 是 该 研究 
的 显著 影响 因素 ， 孤 立 的 内 容 特 征 无 法 进行 被 引 
频次 预测 。T Chakraborty ^ 9 WA Jy, KBR 
的 回归 方法 存在 一 个 潜藏 的 假设 ， 即 所 有 发 表 论 
文 的 引文 模式 都 具有 相似 的 特征 ， 该 假设 在 一 定 
程度 上 影响 了 预测 的 准确 性 ， 为 此 ， 他 提出 使 用 
分 层 学 习 的 方法 ， 将 论文 分 为 了 6 种 引文 模式 ， 
分 别 对 不 同 模式 的 论文 使 用 支持 向 量 机 模型 进行 
回归 模拟 ， 其 研究 证 明 ， 分 层 学 习 是 有 效 的 ， 但 
该 方法 仅 对 于 平均 每 年 被 引 频 次 大 于 1 的 论文 有 
效 。J Chen 和 C. Zhang 基于 6 种 内 容 特征 和 10 
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项 作者 特征 ， 引 入 IBM 模型 提取 内 容 特征 计算 
论文 主题 之 间 的 关联 概率 ， 并 使 用 二 部 网 络 投影 
得 到 作者 协作 网 络 , 使 用 梯度 增强 回归 树 (GBRT) 
来 预测 论文 的 引文 计数 ， 实 验 结果 表明 ，GBRT 
的 “内 容 特征 ”组 在 KDDCUP 数据 集 上 的 性 能 
wa“. ski, 在 X. Zhu 和 Z. Ban"? 的 研究 中 ， 
其 使 用 ArnetMiner 数据 集 ， 引 入 学 术 网 络 特征 
进行 研究 ， 发 现 作 者 的 特征 更 重要 ， 支 持 向 量 机 
SVM Wr Beis, A30 88.87%。 机 器 学 习 方 法 预 
测 论文 被 引 频 次 的 部 分 论文 见 表 6。 
3.1.3. 深度 学 习 预 测 

最 近 几 年 ， 神 经 网 络 等 深度 学 习 方 法 开始 
被 应 用 于 被 引 频 次 预测 。 深 度 学 习 模 型 是 一 种 
特殊 的 机 器 学 习 ， 它 允许 模型 通过 多 个 处 理 层 
学 习 具 有 多 个 抽象 层次 的 数据 中。 在 深度 学 习 
中 ，RNN、LSTM、GRU 等 时 间 序 列 神经 网 络 
可 以 预测 未 来 一 段 时 间 的 序列 值 ，BP 神经 网 络 
和 CNN 对 于 特征 值 处 理 更 加 有 效 。 
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x 6 机 器 学 习 方 法 预测 论文 被 引 频 次 的 部 分 论文 (回归 问题 ) 


ELAS AT tE YS 
序号 WNA 影响 因素 。 研究 方法 /工具 FAES HOM 。 ”论文 来 源 
内 容 特征 、 作 
ArnetMiner 学 术 数据 e GPR, CART, 1、5、10 年 内 的 son 
! ge (计算 机 领域 ) FARM qx ir, vk 7 aam P 
从 微软 学 术 搜 索 
(MAS) 中 抓 取 的 公开 " "T Š 发 表 1-5 年 后 的 ”、,、 
2 。 数据 集 (计算 机 科学 引用 模式 支持 向 量 机 是 被 引 频次 文献 [6] 
领域 ) 
, KDD CUP 数据 集 ( 高 WARME ME IBM 模型 、 梯 度 增强 ” 否 ( 第 一 年 ”3 年 后 的 被 引 频 文献 [48] 
能 物理 理论 ) 者 特征 回归 树 (GBRT) 的 早期 被 引 ) 次 
à AmetMiner 学 术 数 据 学 术 网 络 特征 ”GPR、DNN、MLR、 E ER 3 年 后 和 5 文献 36] 


R (计算 机 领域 ) 


A. Abrishami 等 °°! 利用 RNN 循环 神经 网 络 
学 习 论 文 的 引文 序列 从 而 预测 未 来 引文 序列 ， 
但 是 在 进行 预测 过 程 中 ， 仅 仅 使 用 了 论文 发 表 
后 早期 引文 特征 ， 并 未 将 其 他 信息 源 如 作者 的 
功能 、 论 文 的 内 容 等 作为 数据 进行 输入 。LSTM 
模型 是 RNN 模型 的 变种 ，S. Yuan 等 P 结合 了 
论文 的 内 在 质量 、 老 化 效应 、 马 太 效应 和 近期 
效应 4 种 现象 ， 提 出 了 基于 RNN 和 LSTM 的 论 
文 被 引 频 次 预测 模型 ， 但 也 仅 是 使 用 时 间 序 列 
进行 预测 , 未 使 用 作者 、 期 刊 、 论 文 等 相关 特征 。 
与 前 文 多 提 到 的 研究 相 比 ，J. Wen 等 四则 提取 
了 用 于 预测 论文 被 引 频 次 的 特征 ， 然 后 将 这 些 
特征 输入 到 GRU 神经 网 络 中 进行 预测 。 将 预测 
结果 与 其 他 回归 模型 进行 了 比较 。 实 验 结果 表 
明 ， 该 模型 预测 精度 高 ， 收 敛 速 度 快 。 引 文 计 
数 的 时 间 序 列 预 测 优 于 现 有 的 方法 。 

区 别 于 时 间 序 列 数 据 预 测 方法 ，X. Ruan 
等 中 使 用 四 层 反 向 传播 (BP ) 神经 网 络 模型 
来 预测 论文 未 来 某 个 时 间 段 总 被 引 频 次 ， 其 研 
究 结 果 发 现 ，BP 神经 网 络 的 性 能 明显 优 于 6 个 
基线 模型 (XGBoost, RF, LR, SVR, KNN, 
RNN) 。 在 预测 效果 方面 ， 低 被 引 论文 的 准确 
率 高 于 高 被 引 论文 。J. Xu 等 四则 提出 了 一 种 以 
数据 为 中 心 的 方法 ， 结 合 许多 文献 特征 ， 使 用 
卷 积 神经 网 络 ( CNN ) 来 预测 长 期 的 科学 有 影响。 

与 依赖 于 统计 学 的 线性 回归 模型 不 同 ， 深 


人 年 后 的 被 引 频次 


度 学 习 方 法 对 实验 数据 的 分 布 没 有 严格 的 要 求 。 
神经 网 络 的 预测 结果 通常 是 具有 和 鲁 棒 性 的 。 此 
外 ， 浅 层 机 需 学 习 模 型 的 性 能 取决 于 特征 工程 
的 质量 ， 特 征 工程 质量 越 好 ， 模 型 的 学 习 效率 
往往 会 越 高 。 然 而 ， 特 征 工程 的 构建 、 选 择 和 提 
取 并 非 易 事 。 相 比 之 下 ， 深 度 神经 网 络 在 其 特征 
学 习 方面 具有 优势 一 一 自动 特征 工程 |, BE 
可 以 通过 多 层次 和 非 线 性 变换 , 将 初始 的 “底部 ” 
寺 征 表示 自动 转换 为 “高 级 特征 ”"。 深 度 学 习 
方法 预测 论文 被 引 频次 的 部 分 论文 如 表 7 所 示 。 
3.1.4 小 结 

上 述 提 及 的 预测 研究 大 部 分 都 有 对 论文 进 
行 筛选 处 理 , 即 删除 低 被 引 论文 后 , 再 进行 预测 。 
其 原因 是 低 被 引 论文 在 回归 预测 上 的 效果 并 不 
明显 ， 回 归 预 测 在 很 多 情况 下 仅 适 合 预测 高 被 
引 论文 ， 然 而 ， 一 篇 新 出 版 的 论文 ， 我 们 并 不 
知道 其 是 否 属于 高 被 引 论文 ， 因 此 预测 效果 与 
实际 应 用 会 产生 较 大 的 差别 。Y. DONG 等 的 认 
为 被 引 频 次 预测 具有 长 尾 效 应 ， 不 适合 采用 回 
归 方式 进行 预测 ， 即 预测 的 有 效 性 从 根本 上 受 
到 被 引 频 次 的 寡 律 分 布 的 限制 ， 低 被 引 论文 普 
遍 存 在 ， 而 高 被 引 论文 则 相对 罕见 。 由 于 绝 大 
多 数 文献 积累 的 被 引 频次 很 少 ， 传 统 的 回归 分 
析 将 很 难度 量 论文 的 被 引 频 次 。 为 了 解决 这 种 
困难 ， 通 过 提取 高 被 引 论文 的 特征 ， 并 将 这 些 
特征 映射 到 论文 的 被 引 频 次 上 ， 可 以 一 定 程度 
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上 提高 被 引 频 次 的 预测 效率 ， 但 是 由 于 低 被 引 
论文 的 数量 太 多 ， 导 致 高 被 引 论文 的 特征 并 不 
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非常 明显 ， 这 将 会 使 得 实际 应 用 数据 集 的 预测 
效果 大 大 降低 。 


表 7 深度 学 习 方法 预测 论文 被 引 频 次 的 部 分 论文 (回归 问题 ) 


研究 方法 / ie 


序号 研究 对 象 影响 因素 pn = 预测 。 论文 来 源 
Wos 中 5 种 期 刊 (《 自 
A | 学 》 《新 英 
然 》《 科 学 》《 新 英 格 “发表 后 5 年 的 被 引 频 ”RNN 神经 发 表 后 14 年 的 
1 ” 兰 医 学 杂志 》《 细 胞 》) 次 序列 网 络 f 被 引 频次 序列 “文献 [50] 
和 《美国 国家 科学 院 院 i 
刊 》 
， 学术 控 所 和 搜索 平台 发表 后 5 年 的 被 引 频 LSTM 神经 ET FRISE a ae 
AMiner 数据 集 次 序列 网 络 E) i 被 引 频 次 
作者 特征 ; LECT E 
学 术 挖 据 和 搜索 平台 GRU-CPM ean 未 来 1-5 年 的 ”、.,、 
H EHE. 5 seit : 
3 /— AMiner 数据 集 uid 神经 网 络 TORIK we D 
2000 年 至 2013 年 在 "t ye 
, CSSCI 图 书馆 、 信 息 和 WAR: SET BP 神经 网 7 (102A FOR S AE ae ao 
文献 领域 发 表 的 评论 和 特征 、 早 期 引用 特征 络 引 频 次 ) 引 频 次 
研究 论文 E T 
学 术 挖 据 和 搜索 平台 CNN 卷 积 发 表 后 10 年 的 ”、,、 
5 ”AMiner 数据 集 。 。 时间 蜡 构 网 络 特征 。 神经 网 络 * 被 引 频 次 文献 [53] 


3.2 定义 为 分 类 问题 的 预测 方法 

被 引 频 次 预测 问题 从 回归 转化 为 分 类 问题 ， 
尽管 预测 粒度 变 粗 ， 但 是 预测 结果 更 加 符合 引 
文 数据 分 布 规律 , 使 得 模型 更 加 具有 泛 化 性 1。 
相 比 于 回归 问题 的 预测 方法 ， 将 预测 任务 视 为 
分 类 问题 的 研究 方法 则 比较 单一 ， 主 要 是 使 用 
各 种 机 器 学 习 的 方法 进行 分 类 预测 。 由 于 分 类 
任务 是 有 监督 的 学 习 ， 因 此 这 类 研究 方法 需要 
设 定 一 个 分 类 阔 值 , 用 以 确定 每 篇 文献 的 标签 。 
常用 来 进行 论文 被 引 频 次 预测 的 分 类 方法 有 支 
持 向 量 机 (SVM ) 、 贝 叶 斯 网 络 (NB) , KE 
近邻 (KNN), H (LRC), ARR 
度 提升 决策 树 (GBRT ) 、 袋 装 法 (BAG) ) 、 随 
机 森林 CRF) 、XGBoost、AdaBoost 算法 等 。 

A. Ibanez 等 59 将 论文 分 为 三 类 一 一 很 少 被 
引 (被 引 频 次 小 于 等 于 1) 、 一 些 被 引 (被 引 
频次 2-4) 和 许多 被 引 ( 被 引 频 次 超过 4) ， 采 
用 机 器 学 习 方 法 ， 如 朴素 贝 叶 斯 、 罗 辑 回 归 、 
决策 树 和 k 最 近邻 (KNN)， 来 预测 从 第 一 年 到 
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第 四 年 的 被 引 频 次 ,结果 表明 ， 人 逻辑 回归 算法 
和 朴素 贝 叶 斯 算法 的 准确 率 最 高 。L. Fu fI C. 
Aliferis 使 用 支持 向 量 机 (SVM) 在 生物 医学 领 
域 预测 一 篇 论文 发 表 10 年 后 被 引 量 是 否 高 于 
SES BATH (20, 50, 100, 500) ， 模 型 的 预测 
AUC (Area Under Curve， 线 下 曲线 面积 ) 为 
0.857-0.918。M. Wang 4& P9 将 天 文学 和 天 体 物 
理学 领域 的 219 篇 论文 分 为 高 、 中 、 低 三 组 ， 
使 用 了 一 个 由 5 个 决策 树 分 类 器 组 成 的 多 分 类 
器 系统 来 进行 预测 , 并 获得 了 较 高 的 分 类 能 

其 研究 表明 ， 论 文 的 内 部 质量 和 外 部 特征 C XE 
要 表现 为 作者 和 期 刊 的 声誉 ) ， 有 助 于 提高 论 
文 的 被 引 频 次 预测 。Y Dong 等 外 的 研究 发 现 ， 
作者 出 版 文献 的 主题 和 刊载 期 刊 决定 一 篇 论文 
是 和 否 将 贡献 其 主要 作者 的 hn 指数 ， 发 表 文 献 的 
主题 受 欢 迎 程度 和 合 著者 的 影响 与 预测 目标 无 
关 ， 在 预测 一 篇 论文 是 否 会 在 5 年 内 对 其 主要 
作者 的 指数 有 贡献 时 ， 其 最 佳 模型 具有 87.5% 
以 上 的 准确 度 。 耿 赛 等 ”通过 大 量 实验 分 析 发 
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Jil GBDT XGBoost 和 随机 森林 的 预测 能 力 较 强 ， 
且 预 测 的 时 间 段 越 长 ， 效 果 也 就 相对 越 好 。 

机 器 学 习 的 方法 在 识别 高 影响 力 或 高 被 引 
论文 上 具有 和 较 高 的 准确 度 。 但 是 ， 分 类 模型 的 
分 类 标准 并 没有 进行 统一 的 界定 ， 往 往 是 研究 
人 员 根 据 所 使 用 的 论文 数据 集 进 行 自 定义 界定 ， 
甚至 同一 研究 人 员 在 不 同 研究 时 期 的 分 类 标准 
都 不 一 样 , 显示 出 分 类 方法 具有 粗 粒 度 的 缺点 ， 
该 缺点 限制 了 论文 研究 成 果 的 普及 应 用 外 ; 其 
次 ,分 类 结果 是 某 一 段 时 间 内 的 被 引 总 量 ， 
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论文 被 引 量 的 简化 处 理 中， 因此 无 法 判断 论文 
随时 间 变 化 而 产生 的 被 引 趋势 变化 。 

机 需 学 习 可 以 处 理 两 类 预测 问题 ， 即 回归 
问题 和 分 类 问题 。 在 众多 的 研究 中 ， 集 成 的 机 
顺 学 习 方法 和 支持 向 量 机 都 有 比较 好 的 预测 效 
果 。 相 比 于 预测 回归 值 ， 机 顺 学 习 在 分 类 回归 
上 有 更 好 的 表现 。 尽 管 分 类 预测 粒度 较 粗 ， 但 
是 更 能 符合 实际 的 应 用 数据 ， 可 以 减少 低 被 引 
数据 在 分 类 过 程 中 的 影响 。 机 带 学 习 方 法 预测 
论文 被 引 频 次 的 部 分 论文 如 表 8 所 示 : 


表 8 机 器 学 习 方 法 预测 论文 被 引 频 次 的 部 分 论文 (分 类 问题 ) 


BLAS yan 
序号 。 研究 对 旬 影响 因素 研究 方法 "DS qum mm x 
贝 叶 斯 网 络 ( 朴素 贝 叶 few. some, RR M 
1 《生物 信息 学 》 摘要 斯 和 K2)、 慢 辑 回归 、 是 ‘any AAEM 163 
决策 树 .k 最 近邻 (KNN) 》 被 引 频次 
《美国 医学 杂志 》 
《内 科 医 学 年 鉴 》 er 
, 《英国 医学 杂志 》 内 容 特征 、 文 献 支持 向 量 机 (SVM ) 、 5 20, 50, 年 内 被 引 文献 
《美国 医学 会 杂 ”计量 学 特征 决策 树 = 100, 500 vin A 
志 》《 柳 叶 刀 》《 新 ü 
英格兰 医学 杂志 》 
— mine 高 (275 以 
s wevgihri dq 论 文 外 部 特征 ; 决策 村 多 分 类 器 、 due DRE 上) 、 中 x 
Um 论文 质量 特征 算法 iE) (40-275) 、 [56] 
低 (40 以 下 ) 
论文 的 作者 、 内 发 表 后 5 
ange A ROACH A TAI (LRC)、 随 机 ra au FAME Vus 
a Ame 参考 文献 ,以 及 IERP, See 。 DEDI guae z 
与 作者 相关 的 社 (BAG) a h 指数 作 
会 和 时 间 效应 贡献 
kis 朴素 贝 叶 斯 (NB), iE 
Nude 辑 回归 (LR)、 支 持 向 作者 在 论文 全 二 的 
5 (Information 期刊 相关 ; 作者 量 机 (SVM)、 梯 度 提 发 表 当 年 的 “1 年 年、 文献 
"n & Library 相关 ; 论文 相关 升 决策 树 (GBDT)、 = 篇 均 被 引 频 。 10 年 ” [an 
Cenes Y XGBoost, AdaBoost, 次 


Science) 论文 数据 


Q 被 引 频次 预测 研究 中 存在 的 一 些 
共性 问题 分 析 

综合 来 看 ， 不 论 是 将 预测 研究 定义 为 回归 
问题 还 是 分 类 问题 ， 在 研究 过 程 中 都 存在 着 一 
些 共性 的 问题 ， 本 文 将 会 对 这 些 存在 的 问题 进 


随机 森林 (RF) 


行 分 析 。 

4.1 影响 因素 与 预测 结果 之 间 因 果 关 系 不 明确 
影响 因素 与 被 引 频 次 之 间 更 多 的 是 相关 性 

人 研究， 两 者 之 间 是 相关 的 并 不 意味 着 在 预测 模 

型 中 有 较 好 的 效果 。 由 于 被 引 频 次 相关 的 影响 

因素 众多 ， 关 于 被 引 频 次 预测 的 影响 因素 研究 
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<= 
已 有 较 多 的 成 果 ， 各 方面 的 影响 因素 均 有 涉及 
与 研究 ， 总 体 来 说 主要 是 论文 / 内 容 相 关 的 影响 
因素 、 作 者 相关 的 影响 因素 、 期 刊 相关 的 影响 
因素 ， 还 有 一 些 其 他 影响 因素 ， 包 括 但 不 限于 
时 间 因 素 、 替 代 计 量 因 素 、 网 络 特征 因素 等 。 
但 是 不 同 的 数据 集中 ， 不同 的 影响 因素 可 能 会 
产生 不 同 的 效果 ， 如 KDDCUP Bc He EP, J. 
Chen 和 C. Zhang 研究 发 现 内 容 特征 更 重要 中 |， 
而 在 ArnetMiner 数据 集中 ，X. Zhu Ñ Z. Ban 发 
现 作者 特征 更 加 重要 P. 
4.2 研究 样本 数据 缺乏 多 样 性 

被 引 频 次 预测 研究 的 样本 数据 相对 单一 ， 
使 用 的 数据 集 大 多 是 关于 理工 科 和 医学 类 科学 
文献 ,尽管 有 些 研究 中 ,有 进行 学 科 之 间 的 对 比 ， 
但 是 学 科 领 域 并 未 跳 脱 自然 科学 和 人 文科 学 之 
间 的 界限 ， 因 此 研究 缺乏 全 面 性 。ArnetMiner 
学 术 数 据 集 和 AMiner 数据 集 是 使 用 较 多 的 关于 
计算 机 领域 的 科学 文献 公开 数据 集 ， 此 外 生物 
医学 类 的 数据 集 也 比较 多 ， 人 文 社 科 类 数据 集 
非常 少 ， 并 且 使 用 的 数据 集 大 多 数 来 源 于 外 文 
数据 库 。 这 种 现象 值得 我 们 思考 ,已 有 的 研究 
发 现 , 不 同 领域 的 研究 数据 集 之 间 差 异 比较 大 ， 
因此 ， 将 这 些 被 引 频 次 预测 的 研究 方法 迁移 到 
国内 数据 集 或 人 文 社会 数据 集 是 否 依然 适用 有 
待 验证 。 
4.3 未 明确 研究 结果 的 适用 性 与 预测 周期 的 关系 

预测 未 来 长 期 影响 最 终 目的 还 是 落实 到 应 
用 中 ,但 是 大 多 数论 文 并 未 对 多 长 的 周期 是 适 
用 的 进行 阐述 。 在 以 上 众多 研究 中 ， 预 测 的 周 
期 长 短 不 一 。 它 们 的 研究 目的 是 预测 论文 的 短 
期 或 长 期 影响 ， 以 未 来 一 定时 间 段 的 被 引 频 次 
来 衡量 ， 该 时 间 段 在 不 同 的 研究 中 设 定 不 一 ， 
WIE 54E, 10 年 甚至 31 年 的 长 度 等 。 不 同 
研究 者 使 用 的 数据 不 同 , 造成 研究 的 周期 不 同 ， 
但 在 多 数 研 究 论 文中 ， 并 未 阐述 论文 所 研究 的 
周期 有 何 依据 。 只 有 少数 论文 对 整体 数据 进行 
了 研究 ， 再 划分 出 有 效 的 引文 时 间 窗 口 。 引 文 
时 间 窗 口 又 引申 了 一 个 实用 性 问题 ， 过 长 的 引 
文 时 间 窗 口 会 出 现 信息 的 滞后 性 ， 导 致 预测 结 
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果 无 效 ， 过 短 的 引文 时 间 窗 口 可 能 会 造成 模型 
准确 度 下 降 。 
44 模型 评估 可 解释 性 较 弱 

被 引 频次 预测 需要 一 个 评价 标准 来 对 模型 
的 好 坏 进 行 评 估 ， 常 用 的 评估 方法 有 决定 系数 
r、 均 方 误差 MSE、 平 均 绝 对 误差 MAE, 、 准 确 
K ACC 等 , 但 是 在 许多 研究 中 ， 仅 给 出 了 评估 
方法 的 值 大 小 以 判断 模型 的 好 坏 ， 对 值 大 小 并 
未 进行 详细 的 解释 ， 这 是 这 类 研究 的 通病 。 事 
实 上 ， 模 型 评 佑 方法 的 值 大 小 是 基于 实际 值 和 
预测 值 进行 计算 的 ， 如 MAE 是 平均 绝对 误差 ， 
在 进行 值 大 小 判断 时 ， 应 该 与 真实 值 的 大 小 进 
行 比较 ， 看 误差 值 在 真实 值 多 大 范围 内 ， 而 不 
仅仅 是 比较 不 同方 法 产生 的 误差 值 大 小 。 
全 提高 被 引 预 测 研究 质量 的 建议 

针对 第 4 部 分 提出 的 被 引 预 测 研究 中 存在 
的 共性 问题 ， 本 文 提出 了 一 些 建议 ， 和 希望 能 够 
给 相关 研究 人 员 提 供 一 些 参考 ， 以 提高 研究 的 
质量 。 
5.1 改进 影响 因素 提取 方法 ， 增 强 影响 作用 的 针 
对 性 

上 述 综述 已 经 从 各 个 方面 综合 阐述 了 影响 
论文 的 因子 ， 这 些 影响 因子 最 终 都 有 可 能 成 为 
建立 模型 的 特征 之 一 。 但 是 如 何 使 这 些 特 征 因 
子 更 能 表达 出 模型 所 需要 的 信息 ， 我 们 需要 从 
微观 的 具体 操作 方法 的 角度 进行 创新 和 应 用 。 

在 提取 高 级 语义 特征 学 习 引 文 时 间 序 列 的 
研究 中 5， 其 研究 的 核心 是 从 元 数据 文本 中 获 
取 语 义 信 息 ， 使 用 Doc2Vec 算法 对 元 数据 文本 
中 的 句子 进行 编码 ， 然 后 进一步 通过 Bi-LSTM 
和 注意 机 制 从 句子 嵌入 中 提取 高 级 (段落 级 ) 
语义 特征 ， 最 后 通过 整合 早期 的 引文 来 学 习 引 
文 预测 任务 。 该 研究 证 明 元 数据 语义 特征 对 提 
高 被 引 预 测 性 能 是 有 用 的 ， 为 引文 预测 提供 了 
一 种 很 有 前 途 的 方法 。 

与 主题 相关 的 特征 研究 也 是 基于 文本 内 容 
( 标题、 摘要 等 文本 内 容 ) 进行 挖掘 的 ， 但 该 
研究 与 之 不 同 的 地 方 在 于 特征 挖掘 的 粒度 不 同 。 
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主题 特征 描述 的 是 整 篇 文档 的 特征 ， 和 常用 的 提 
取 方 法 是 LDA 及 其 改进 模型 ， 所 形成 的 是 在 语 
料 库 中 通过 参数 调整 得 到 的 数量 一 定 的 主题 ， 
粒度 相对 较 粗 ， 少 部 分 论文 不 一 定 能 找到 相对 
合适 的 主题 。 而 元 数据 语义 特征 在 Doc2Vec 算 
法 的 基础 上 ， 进 一 步 使 用 Bi-LSTM 和 注意 机 制 
进行 语义 挖掘 ， 其 粒度 相对 较 细 ， 使 每 一 篇 论 
文 都 能 找到 其 特定 的 语义 特征 。 
5.2 扩大 研究 样本 ， 预 测 限 定 模型 的 适用 性 

在 被 引 频 次 预测 研究 中 ， 大 多 数 研 究 通常 
使 用 单一 数据 集 ， 因 此 研究 得 出 的 结果 并 不 都 
适用 于 其 他 数据 集 。 已 有 研究 也 表明 ， 不 同 研 
究 领 域 的 数据 集 之 间 被 引 频 次 预测 差异 较 大 ， 
因此 为 了 使 研究 结果 更 具有 普遍 性 和 泛 化 性 ， 
应 该 使 用 更 加 全 面 的 数据 集 ， 对 差异 较 大 的 领 
域 进行 比较 研究 ， 分 析 影 响 不 同 预测 结果 的 原 
因 ， 使 得 研究 更 加 严谨 、 全 面 。 

在 G. Abramo 等 外 的 研究 中 ,使 用 123128 
篇 WoS 网 站 中 的 意大利 出 版 文献 进行 研究 ， 发 
现 不 同学 科 对 预测 模型 的 适用 性 不 同 。 该 研究 
对 所 有 的 文献 进行 研究 主题 分 类 ， 共 分 为 “ 生 
物 学 ”“ 生 物 医 学 ”“ 化 学 ”“ 临 床 医学 ”“ 地 
球 与 空间 科学 ”“ 经 济 学 ”“ 工 程 学 ”“ 法 律 、 
政治 和 社会 学 ”数学 ”交叉 科学 ”物理 学 ” 心 
理学 ”12 个 主题 学 科 。 其 研究 结果 显示 ，“ 经 
济 学 ”在 两 个 预测 模型 中 ， 早 期 引用 具有 最 大 
的 权重 值 ， 而 “心理 学 ” 则 相反 ; 生命 科学 领 
域 (“生物 医学 研究 ”“ 化 学 ”“ 生 物 学 ”“ 临 
床 医学 ”) 的 平均 早期 引用 权重 系数 各 不 相同 ; 
法律、 政治 和 社会 学 ”“ 工 程 学 ”和 “交叉 科学 ” 
都 反映 了 明显 的 早期 影响 。 
5.3 明确 解决 问题 的 前 提 ， 提 出 创新 的 预测 路 径 

有 时 在 解决 实际 问题 的 过 程 中 ， 现 实 问题 
过 于 复杂 ， 为 了 使 复杂 问题 简单 化 ， 研 究 者 会 
附加 一 定 的 前 提 条 件 ， 并 在 此 前 提 条 件 下 解决 
部 分 的 问题 。 当 去 掉 这 个 前 提 条 件 后 ， 会 出 现 
什么 样 的 问题 ， 所 研究 的 方法 在 实际 操作 中 是 
否 还 能 复 现 ， 值 得 我 们 思考 和 研究 。 

在 使 用 动态 异 构 信 息 网 络 对 新 出 版 论文 进 
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行 引文 时 间 序 列 预测 的 研究 中 ， 研 究 者 认为 
以 往 的 引文 预测 依赖 论文 发 表 后 的 头 几 年 观察 
到 的 引文 〈 即 领先 的 引文 价值 ) ， 即 通过 头 几 
年 的 被 引 量 来 预测 长 期 的 被 引 频次 。 然 而 现实 
情况 是 ， 许 多 论文 在 发 表 后 的 头 几 年 其 引用 影 
响 已 经 达到 峰值 ， 因 此 这 些 论文 并 未 能 体现 出 
它 的 领先 价值 。 在 出 版 物 更 新 频率 非常 快 的 领 
域 〈 诸 如 机 器 学 习 ) 领域 ， 等 待 3-5 年 才能 预测 
影响 是 不 现实 的 。 基 于 此 问题 ， 该 研究 提出 了 
一 个 挑战 :为 没有 任何 领先 价值 的 新 发 表 论 文 
生成 引文 时 间 序列 ,解决 时 间 序 列 任务 中 的 “ 冷 
启动 ”问题 。 因 此 ,他们 提出 了 端 到 端的 框架 ， 
即 异 构 信 息 网 络 到 时 间 序 列 ， 以 此 来 预测 单 篇 
论文 的 被 引 频 次 。 

该 研究 的 核心 思想 是 一 种 转化 思想 : 通过 
学 习 由 关键 词 、 作 者 、 出 版 地 点 和 论文 所 构成 
的 异 构 网 络 ， 估 算出 一 个 伪 前 导 值 ， 并 将 其 映 
射 为 论文 未 来 的 引用 时 间 序 列 ， 即 将 异 构 网 络 
信息 转换 成 时 间 序 列 信息 ， 实 现时 间 序 列 的 预 
测 。 
5.4 运用 数学 建 模 思 维 提高 模型 的 可 解释 性 

由 于 前 面 所 总 结 的 基于 经 验 主义 的 调 参 式 
Dla J. TREE DEBT IE RD Be THA 
诊断 和 测评 神经 网 络 特征 表达 能 力 ， 缺 乏 可 解 
释 性 ， 因 此 在 这 个 建 模 过 程 中 ， 可 以 根据 自己 
研究 的 需求 寻找 合适 的 建 模 方法 。 数 学 建 模 思 
维 是 在 现实 情境 中 从 数学 视角 出 发 , 分析 问 题 、 
提出 问题 、 建 立 模型 、 确 定 参数 、 求 解 模型 、 
并 最 终 解决 实际 问题 的 一 种 思维 方法 。 以 下 的 
建 模 方法 充分 地 体现 了 建 模 过 程 的 数学 思维 ， 
并 使 用 了 数学 工具 对 模型 进行 量化 解释 ， 充 分 
地 展示 了 模型 的 可 解释 性 。 

在 论文 的 引文 动力 学 机 制 研究 中 ，M. Wang 
等 i 从 “论文 引文 模式 能 否 预 测 长 期 影响 ” 问 
题 出 发 ， 首 先 确定 了 驱动 论文 被 引用 的 三 个 基 
本 机 制 : 高 被 引 论文 比 低 被 引 论文 更 有 可 能 
再 次 引用 ; 论文 具有 老化 效应 ， 每 篇 论文 的 新 
颖 性 最 终 都 会 消失 ; 论文 存在 内 在 差异 。 结 合 
这 三 个 因素 ， 推 导出 论文 被 引用 的 概率 模型 : 
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TIL(OD~7CER， 其 中 六 解释 了 论文 的 内 在 差异 ， 
因为 论文 的 内 在 差异 如 新 绪 性 、 重 要 性 等 取决 
于 多 种 无 形 和 主观 的 维度 ， 该 研究 忽略 了 评估 
一 篇 论文 内 在 价值 的 必要 性 ， 并 将 合适 的 w, 视 
为 一 篇 论文 在 研究 总 样本 中 内 在 差异 的 综合 衡 
量 标准 ; C 是 论文 i 在 发 表 后 1 时 获得 的 引用 ; 
Pi 是 论文 i 在 发 表 后 1 时 的 衰减 率 。 论 文 累计 总 
被 引 频 次 可 通过 微 积分 的 方式 求解 出 。 

该 研究 的 创新 点 在 于 将 引用 预测 视 为 一 种 
连续 型 概率 问题 ,通过 推导 概率 密度 函数 ， 求 
得 概率 分 布 ， 以 此 求 出 论文 的 未 来 引用 。 相 比 
于 机 带 学 习 和 深度 学 习 等 数学 建 模 方法 ， 在 模 
型 准确 度 大 致 相同 的 情形 下 ， 该 种 建 模 方式 可 
解释 性 更 强 。 


@ 总 结 与 展望 


综 上 所 述 , 在 大 数据 、 人 工 智 能 的 时 代 下 ， 
引用 预测 研究 内 容 不 断 更 新 ， 产 生 了 新 的 影响 
因素 指标 和 预测 方法 。 本 文 从 “影响 因素 ”到 “ 研 
究 对 象 ”“ 人 研究 方法 ”进行 了 系统 梳理 ， 并 在 
前 人 的 研究 中 ， 总 结 了 目前 引用 预测 研究 存在 
的 问题 ， 并 提出 了 相应 的 建议 。 

未 来 应 该 深入 理论 研究 ， 加 强 影 响 因 素 指 
标 和 研究 方法 的 合理 运用 ， 找 到 合理 的 研究 周 
期 , 建立 统一 的 评价 系统 , 完善 研究 的 理论 基础 ， 
并 且 在 完善 的 理论 研究 基础 上 ， 着 力 于 解决 实 
际 问题 ， 充 分 运用 宏观 的 数学 建 模 思维 ， 落 实 
微观 的 具体 操作 方法 ， 运 用 转化 的 思想 ， 将 复 
杂 的 实际 问题 转化 为 多 个 简单 的 问题 ， 并 逐一 
进行 解决 ， 使 得 模型 能 在 实际 问题 中 得 到 充分 
的 应 用 。 
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A Review of Research on Influencing Factors and Prediction of Citation Frequency of 
a Single Paper 


Zhang Sufang Liu Huimin 
School of Economics and Management, South China Normal University, Guangzhou 511400 

Abstract: [Purpose/Significance] Combing the relevant influencing factors of the citation frequency 
of a single paper and the research status of the prediction of the citation frequency, this paper provides a 
comprehensive and systematic cognitive framework from the perspective of the involvement of scientific 
researchers and scientific research institutions in such research. [Method/Process] Using the literature 
research method, through the systematic combing of the existing literature, this paper summarized the 
relevant contents and characteristics of the influencing factors, research objects and research methods of 
citation prediction, compared and analyzed different methods by means of list, and summarized the common 
problems and some innovative solutions of the existing research. [Result/Conclusion] In the process of 
systematic combing and summarizing, it is found that the causal relationship between influencing factors 
and prediction results is not clear, the research sample data is lack of diversity, the relationship between the 
applicability of research results and prediction cycle is not clear, and the interpretability of model evaluation 
is weak. Therefore, we should improve the follow-up research quality from the aspects of solving the 
preconditions of the problem, selecting targeted samples, improving the extraction methods of influencing 
factors, and using mathematical thinking mode for modeling. 
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